🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования
В тех случаях, когда в датасете присутствуют разные подгруппы с различными распределениями.
🔍Пример: Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).
В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.
✅Что делать: 📍Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.). 📍Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы. 📍При необходимости объединить результаты анализа или прогнозы обратно.
✅Что важно учитывать: 📍Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации. 📍Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.
✅Вывод: Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.
🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования
В тех случаях, когда в датасете присутствуют разные подгруппы с различными распределениями.
🔍Пример: Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).
В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.
✅Что делать: 📍Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.). 📍Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы. 📍При необходимости объединить результаты анализа или прогнозы обратно.
✅Что важно учитывать: 📍Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации. 📍Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.
✅Вывод: Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.
For some time, Mr. Durov and a few dozen staffers had no fixed headquarters, but rather traveled the world, setting up shop in one city after another, he told the Journal in 2016. The company now has its operational base in Dubai, though it says it doesn’t keep servers there.Mr. Durov maintains a yearslong friendship from his VK days with actor and tech investor Jared Leto, with whom he shares an ascetic lifestyle that eschews meat and alcohol.
Start with a fresh view of investing strategy. The combination of risks and fads this quarter looks to be topping. That means the future is ready to move in.Likely, there will not be a wholesale shift. Company actions will aim to benefit from economic growth, inflationary pressures and a return of market-determined interest rates. In turn, all of that should drive the stock market and investment returns higher.
Библиотека собеса по Data Science | вопросы с собеседований from ua